PUSA V1.0

FVDM

動画のフレーム毎に違うノイズスケジュールを設定出来る

https://gyazo.com/c6888376d2a736c245704c32c914cb2e

WanT2Vの構造を丸ごと残したまま、タイムステップ埋め込みモジュールを追加しただけなのでT2Vモデルの性能を損なわない

Wan-I2VはT2Vの重み全部ファインチューニングする必要があったが、Pusa V1.0は埋め込みモジュール+αだけ学習するので学習コストが少なくて済む(1/200)

タイムステップをフレーム単位でベクトル化し、任意のフレーム条件付けを可能にする仕組みなため、image2videoだけでなく、FLF2VやVACEのExtensionのような時間軸を操るタスクも出来るようになる